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摘要 :【[ 目的/ 意义] 为 帮助 高 校 师 生 充 分 利用 网 络 招聘 信息 ,提出 基于 大 数据 量 网 络 招聘 文本 挖掘 的 课程 
知识 模型 及 其 自动 构建 方法 。[ 方 法/ 过程 ] 本 文 提 出 包含 “岗位 -课程 -知识 点 ”的 三 级 课程 知识 模型 ,利用 
自然 语言 文本 控 握 技术 实现 课程 知识 点 模型 的 自动 构建 ,并 通过 实验 对 其 构建 过 程 进行 验证 和 分 析 。[ 结果 / 
结论 ] 实验 结果 表明 本 文 提 出 的 模型 及 方法 具有 高 度 的 可 行 性 与 有 效 性 ,可 为 高 校 和 学 生 提供 教学 和 学 习 参 


考 。 
关键 词 : 网 络 招 聘 文 本 
分 类 号 : G202 

5 DOI:10. 13266/j. issn. 0252 ~ 3116. 2019. 10.015 


课程 知识 模型 “文本 挖掘 


近 几 年 来 , 随 着 我 国 高 等 教育 的 迅猛 发 展 和 招生 
规模 的 日 益 扩 大 ,大 学 生 找 工作 难 、 企 业 招 人 难 已 经 成 
为 社会 关注 的 热点 。 在 某 种 程度 上 ,我 国 高 校 人 才 培 
养 与 社会 需求 间 的 不 匹配 ,造成 了 这 种 双重 困境 。 特 
别 儿 ,在 信息 时 代 中 ,企业 对 人 才 的 需求 变化 迅速 ,与 
世相 矛盾 的 是 高 校 人 才 培 养 周期 长 ,专业 课程 设置 灌 
辱 海 致 学 生 的 培养 脱离 实际 需要 。 因 此 ,在 高 速 发 展 
的 稿 息 时 代 中 ,快速 ,准确 地 洞察 企业 对 所 招 岗位 的 知 
访 需 求 显得 格外 重要 。 随 着 互联 网 的 普及 ,网 络 招聘 
成 蜗 企 业 招 聘 的 主流 方式 。 网 络 招聘 文本 中 常 含 有 企 
业 天 所 招 岗位 专业 知识 需求 的 具体 描述 ,反映 了 当前 
就 亚 市 场 对 人 才 的 专业 知识 需求 。 因 此 ,网 络 招聘 文 
本 分 析 是 了 解 整个 社会 对 某 领 域 人 才 知 识 需求 的 一 种 
有 效 途 径 。 

虽然 一 些 学 者 已 经 意识 到 甚 重要 性 并 开展 网 络 招 
聘 文本 分 析 的 研究 ,但 是 目前 研究 还 存在 如 下 两 个 主 
要 问题 :研究 主要 对 岗位 所 需 技 能 知识 进行 统计 , 没 
有 进一步 利用 网 络 招聘 文本 信息 ;@ 分 析 主 要 以 手工 
方法 为 主 ,不 能 满足 大 数据 时 代 招 聘 网 络 数据 量 大 、 变 
化 快速 的 要 求 。 

针对 目前 研究 存在 的 问题 ,本 文 提出 一 个 包含 “ 岗 
位 -课程 -知识 点 "的 课程 知识 模型 ,并 利用 文本 挖 所 


技术 ,自动 构建 课程 知识 模型 ,以 适应 大 数据 时 代数 据 
量 大 数据 变化 快速 的 特点 。 最 后 ,对 计算 机 相关 专业 
的 网 络 招 聘 文 本 进行 实证 分 析 。 实 证 结果 表明 本 模型 
以 及 构建 过 程 的 可 行 性 与 有 效 性 。 课 程 知识 模型 可 以 
帮助 高 校 根 据 社 会 对 特定 领域 人 才 技 能 的 需求 ,不 断 
优化 专业 课程 体系 与 教学 大 纲 ,为 其 制定 符合 企业 需 
求 的 专业 人 才 培 养 方案 提供 情报 决策 支持 。 课 程 知 识 
模型 还 可 以 帮助 学 生根 据 自 身 兴趣 与 欲 从事 的 岗位 ， 
有 重点 地 加 强 某 些 专 业 课 程 及 其 知识 点 的 学 习 。 


1 相关 研究 


网 络 招聘 文本 分 析 通 常 包括 招聘 实体 信息 抽取 与 
招聘 实体 分 析 两 个 步 又。 

招聘 实体 信息 抽取 是 指 从 半 结 构 化 的 网 络 招聘 文 
本 中 抽取 结构 化 的 招聘 实体 信息 ,如 岗位 技能、 专业 
等 信息 。 根 据 抽取 方法 的 不 同 ,可 分 为 手工 方法 和 自 
动 方法 两 大 类 。 手 工 方法 直接 人 工 抽取 网 络 招聘 文本 
中 岗位 .所 需 技 能 等 信息 。 如 :C. Chao 和 S. Shih™" 采 
集 Monster 招聘 网 站 信息 ,手工 抽取 招聘 岗位 .技能 拉 
言 息 ;I，Wowczko” 手工 抽取 和 映射 招聘 中 的 技能 ;J 
Y. Kim 和 C.K. Lee" 手工 分 析 数 据 科 学 家 招聘 信 
息 ;D. A，Mauro 等 "手工 抽取 工作 类 型 所 需 的 技能 ; 
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昌 斌 等 、 李 国 秋 呈 调研 300 个 情报 职业 招聘 网 页 , 手 


聘 信息 , 总 结 企业 对 数学 专业 及 学 历 要 求 。D. A. 


工 抽取 情报 职业 要 求职 业 类 型 职责 和 作用 等 信息 ; 
夏 火 松 和 潘 筱 听 " 手工 抽取 我 国 大 数据 企业 人 才 和 需求 
信息 ; 黄 写 等 号 从 网 络 招聘 文本 手工 抽取 图 情 岗位 对 
人 才 岗 位 .知识 和 能 力 的 要 求 信息 。 贾 东 琴 和 檀 博 ” 
手工 抽取 ALA Joblist IFLA 的 LIBJOBS Mailing List 以 
及 ACRI3 个 招聘 网 站 文本 中 的 招聘 实体 。 

显然 ,手工 方法 很 难 满足 大 数据 量 非 结构 化 环境 
下 的 网 络 招聘 信息 分 析 要 求 。 一 些 研究 尝试 使 用 基于 
外 部 资源 .基于 规则 .基于 统计 .基于 深度 学 习 的 方法 
自动 抽取 网 络 招聘 文本 中 的 信息 。 基 于 外 部 资源 的 方 
法 利用 技能 词典 .维基 百科 等 资源 ,构建 专业 知识 词典 
以 抽取 信息 。 如 :M. Sodhi 和 B.Son'" 构建 运筹 学 专 
业 核 心 词典 。M.， Zhao 等 "使 用 常规 短语 ,领域 专家 
预言 义 的 各 种 术语 分 析 招聘 网 页 。T，Xu ”等 从 CS- 
外 网 站 下 载 技能 种 类 和 具体 技能 , 共 54 个 技能 种 类 
风 57729 个 具体 技能 ,构建 了 专业 知识 字典 。 詹 川 "™ 
估 叉 已 有 的 电子 商务 专业 知识 ,构建 该 专业 的 术语 词 
旺 s 从 招聘 文本 中 抽取 高 于 一 定 频数 的 技能 。 夏 立新 
等 加 利用 中 华 教育 在 线 职 业 大 全 ,招聘 网 岗位 分 类 、 
讼 并 关键 词 构建 专业 ,岗位 和 知识 点 词典 ,抽取 专业 、 
岗 食 .技能 等 信息 。 然 而 ,基于 外 部 资源 的 方法 存在 外 
部 资源 更 新 较 慢 、 歼 盖 面 较 窗 的 问题 。 基 于 规则 的 方 
法 民工 构造 规则 模板 ,以 实现 信息 抽取 。 如 :M，Bas- 
05 利用 逗号 进行 匹配 ,抽取 LinkedIn 网 络 招聘 
文 林 中 的 技能 信息 。 王 召 义 等 5 使 用 具备 .熟悉 、 精 
通 > 能 力 这 4 个 词 作为 邻近 词 ,构建 抽取 规则 ,以 抽取 
岗 斧 所 需 的 技能 。 基 于 规则 的 方法 存在 方法 过 于 简 
单 结果 不 尽 理想 等 问题 。 基 于 统计 的 方法 主要 利用 
语料库 统计 某 个 词 的 概率 信息 ,以 抽取 招聘 实体 。 如 ， 
刘 害 伦 等 "采用 词 频 统 计 信息 抽取 招聘 实体 。 张 俊 
峰 和 魏 瑞 斌 2 抓 取 前 程 无 优 、 智 联 招聘 等 专业 招聘 网 
站 数据 ,使 用 词 频 等 方法 抽取 招聘 实体 ,以 构建 招聘 词 
典 。 基 于 统计 的 方法 也 存在 方法 过 于 简单 ,结果 不 尽 
理想 等 问题 。 随 着 深度 学 习 的 迅速 发 展 , 王 东 波 等 ” 
利用 深度 学 习 模型 ,设计 数据 科学 招聘 实体 自动 抽取 
平台 。 然 而 ,深度 学 习 方法 需要 大 规模 人 工 标注 语 料 
作为 训练 数据 ,目前 网 络 招聘 技能 信息 抽取 任务 没有 
大 规模 标注 语料库 。 

网 络 实体 信息 分 析 是 指 对 抽取 的 结构 化 招聘 实体 
信息 进行 分 析 的 过 程 。 目 前 的 分 析 主要 是 对 抽取 的 岗 
位 ,技能 ,专业 等 信息 进行 统计 ,没有 充分 地 利用 网 络 
招聘 文本 信息 。 如 ,J，Y，Kim 等 外 分 析 数 据 科学 家 招 
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Mauro 等 “结合 专家 判断 ,分 析 2 700 条 大 数据 相关 岗 
位 信息 ,对 每 一 个 工作 类 型 所 需 的 技能 和 熟练 程度 要 
求 进行 评估 。 吕 斌 等 ”\ 李 国 秋 “调研 300 个 情报 职 
业 招 聘 网 页 ,分 析 社 会 组 织 的 情报 职业 需求 ,以 及 社会 
组 织 中 情报 职业 类 型 .职责 和 作用 等 。 黄 兆 等 ”从 职 
位 基本 信息 .岗位 职责 ,任职 要 求 3 个 角度 分 析 大 数据 
岗位 对 人 才 知 识 和 能 力 的 要 求 。M.， Sodhi 和 B. 
Son' 以 研究 不 同行 业 对 运筹 专业 技能 需求 的 差异 。 
詹 川 分析 电 商 各 岗位 的 需求 技能 整体 需求 和 各 个 
岗位 特别 需求 的 技能 。 魏 来 和 郑 华 敏 ” 对 国内 外 高 
校 图 书馆 招聘 信息 进行 调研 ,从 统计 知识 背景 综合 素 
质 、 岗 位 职责 、 职 业 技能 和 特殊 技能 5 个 方面 剖析 数据 
馆 员 需要 具备 的 职业 能 力 。 贾 东 琴 和 檀 博 ”分 析 了 
外 高 校 图 书馆 岗位 需求 中 岗位 数量 .岗位 职责 要 求 \ 人 
门 资质 、 加 分 资质 等 要 求 。 田 野 '" 针对 2016 年 度 
1 359 家 机 构 的 图 情 专 业 招 聘 需 求 数据 ,从 招聘 机 构 
类 型 人 数 、 地 域 招聘 对 象 学 历 要 求 、 岗 位 偏好 等 方 
面 进行 了 实证 分 析 。 陈 妈 € 媛 和 董 伟 “ 借助 社会 网 络 
分 析 工 具 对 招聘 广告 中 的 就 业 技能 及 其 关系 进行 研 
2 课程 知识 模型 逻辑 结构 

目前 研究 主要 对 岗位 所 需 技能 知识 点 进行 统计 ， 
如 图 1(a) 所 示 , 没 有 进一步 利用 网 络 招聘 文本 信息 。 
针对 这 个 问题 ,本 文 提 出 包含 “岗位 - 课程 - 知识 点 ” 
的 三 级 课程 知识 模型 ,如 图 1(b) 所 示 : 


知识 点 
全 传统 的 网 络 招聘 文本 分 析 模型 


(b) 课程 知识 模型 


1 网 络 招聘 文本 挖掘 


课程 知识 模型 包含 岗位 .课程 .知识 3 个 对 象 。 其 
中 ,岗位 为 企业 要 求 员 工 完成 的 一 项 或 多 项 责任 以 及 
为 此 赋予 员工 的 权力 的 总 和 ;课程 指 高 校 根据 培养 目 
标 所 开设 的 专业 知识 和 专门 技能 的 课程 ;知识 点 为 岗 
位 所 需要 的 知识 以 及 专业 技能 ,也 是 课程 包含 知识 的 
基本 单元 。 课 程 知识 模型 还 包括 岗位 - 课程 .课程 - 
知识 两 种 关系 。 其 中 ,岗位 和 课程 之 间 存 在 多 对 多 关 
系 , 即 一 个 岗位 需要 学 习 奉 干 门 课程 ,一 门 课程 可 应 用 
于 若干 个 相关 岗位 ;课程 与 知识 点 之 间 也 存在 多 对 多 
关系 , 即 一 门 课程 包含 若干 知识 点 ,一 个 知识 点 也 可 归 
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属于 知 干 门 课程 。 图 2 以 “大 数据 工程 师 ” 岗 位 为 例 ， 
表明 针对 该 岗位 应 学 习 的 主要 课程 ,以 及 课程 所 包括 
的 主要 知识 点 ,其 中 对 象 间 连 线 的 粗细 表示 对 象 关 系 
的 强 弱 。 


Oracle SqlServer Map Reduce Hadoop Python 算法 


2 课程 知识 模型 具体 示例 


Java 开发 工程 师 


岗位 职责 : 

1 参与 代码 设计 、 审 核 、 检 查 ; 

2. 能 独立 解决 开发 中 遇 到 的 疑难 问题 ; 

3. 完 成 核心 、 重 要 模块 的 设计 、 开 发 、 测 试 ; 

4 参与 系统 稳定 性 、 扩 展 性 、 性 能 调试 。 

任职 要 求 : 

1.1 年 以 上 Java 开发 经 验 ， 对 软件 工程 和 相关 标准 有 良好 
的 认识 ， 具 有 较 强 的 面向 对 象 思维 ; 精通 设计 模式 ; 

2 熟悉 Spring、MyBatis 等 主流 J2EE 技术 ; 熟练 使 用 
Oracle 数据 库 ， 并 有 一 定 的 SQL 优化 经 验 ; 

3 熟悉 Javascript 、JQuery 、Bootstrap 、CSS 等 技术 ; 熟 
悉 Linux 操作 系统 ; 熟悉 To mcat 应 用 服务 器 ; 

4 有 Spark、Hadoop 开发 经 验 者 优先 ; 

5. 能 够 承受 压力 、 基 础 扎实 、 思 路 清晰 ， 有 独立 解决 问题 的 
能 力 、 良 好 的 沟通 表达 能 力 ， 有 责任 心 ， 具有 良好 的 团队 
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(a) 招聘 网 络 文本 显示 页 面 


3 ”课程 知识 模型 自动 构建 


网 络 招聘 文本 通常 包含 岗位 、 岗 位 职责 、 任 职 要 求 
等 信息 ,图 3 为 一 个 网 络 招聘 文本 示例 。 图 3(a) 为 网 
络 招 聘 文 本 在 浏览 器 中 的 显示 页 面 ,图 3(b) 为 对 应 的 
HTML 文本 。 岗 位 描述 了 企业 招 人 所 从 事 的 岗位 名 
称 ;岗位 职责 描述 了 该 岗位 需要 承担 的 责任 ;任职 要 求 
描述 了 该 岗位 人 员 应 该 具备 的 专业 知识 技能 以 及 其 他 
基本 能 力 。 

课程 知识 模型 中 的 岗位 信息 可 以 从 招聘 网 络 文本 
中 的 岗位 部 分 直接 抽取 ,知识 点 可 以 从 任职 要 求 对 应 
的 文本 中 抽取 。 课 程 信息 使 用 主题 模型 生成 ， 并 根据 


<div class="tHeader tHjob"><div class="in"><div 
class="cn"><hl title="Java 开发 工程 师 ">Java 开发 工 
程 师 </hl><div class="bmsg job msg inbox"><p> 岗 
位 职责 : <p><p>1. 参 与 代码 设计 、 审 核 、 检 查 ; 
</p><p 交 .能 独立 解决 开发 中 遇 到 的 疑难 问题 ; 
</p><p> .完成 核心 、 重 要 模块 的 设计 、 开 发 、 测 试 ; 
</p><p34. 参 与 系统 稳定 性 、 扩 展 性 、 性 能 调试 。 
</p><p> 任 职 要 求 : </p><p>1.1 年 以 上 Java 开发 经 
验 ， 对 软件 工程 和 相关 标准 有 良好 的 认识 ， 具 有 较 
强 的 面向 对 象 思维 ;精通 设计 模式 ， <p><p>2. 熟 
悉 Spring、MyBatis 等 主流 PEE 技术 ; 熟练 使 用 
Oracle 数据 库 ， 并 有 一 定 的 SQL 优化 经 验 ; 
</p><p 池 熟悉 Javascript、JQuery、BootStrap、CSS 
等 技术 ; 熟悉 Linux 操作 系统 ， 熟 悉 Tomcat 应 月 
服务 器 ; <p><p 冯 .有 Spark、Hadoop 开发 经 验 者 优 
先 ; <b><p>5 .能 够 承受 压力 、 基 础 扎实 、 思 路 清晰 ， 
有 独立 解决 问题 的 能 力 、 良 好 的 沟通 表达 能 力 ， 有 
责任 心 ， 具 有 良好 的 团队 合作 意识 。</p> 
(b) 招聘 网 络 文本 HTML 页 面 


图 3 网 络 招聘 文本 示例 


主题 模型 和 统计 信息 生成 岗位 - 课程 关系 和 课程 - 知 
识 点 关系 。 因 此 ,本 文 提出 的 课程 知识 模型 构建 流程 
见 图 4, 主 要 包括 数据 抓 取 、 岗 位 抽取 知识 点 抽取 、 课 
程 生成 岗位 - 课程 关系 生成 .课程 - 知识 点 关系 生成 
等 6 个 步 又 。 

网 位 二 深 和 


站 ”岗位 抽取 中 “关系 生成 

招聘 网 站 | 数据 抓 取 | 课程 生成 上 
ET 
,知识 点 抽取 商 和 = 全 从 


4 课程 知识 模型 构建 流程 


3.1 数据 抓 取 
选择 合适 的 招聘 网 站 ,选取 相关 专业 ,使 用 Python 
脚本 ,首先 获取 网 络 招聘 文本 URL, 并 将 其 推送 到 
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Django Rest 接口 收集 端 ,然后 根据 收集 端 职 位 URL , 逐 
一 抓 取 网 络 招聘 文本 信息 。 
3.2 岗位 抽取 

为 了 从 网 络 招聘 文本 抽取 岗位 信息 ,本 文 使 用 
Beautiful Soup 将 HTML 文本 转换 成 树 形 结构 ,每 个 节 
点 对 应 一 个 Python 对 象 。Beautiful Soup 是 一 个 能 从 
HTML 或 XML 文件 中 提取 数据 的 Python 库 。 它 能 通 
过 自 定 义 的 解析 器 来 提供 导航 、 搜 索 , 甚 至 改变 解析 
树 。 因 此 ,本文 使 用 Beautiful Soup 获取 “岗位 ”标签 内 


旦 本 


言 息 o 


3.3 知识 点 抽取 
类 似 于 岗位 抽取 ,同样 使 用 Beautiful Soup 解析 网 
络 招聘 文本 中 "任职 要 求 "标签 中 的 文本 。 然 后 对 文 
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本 进行 分 词 .词性 标注 、 去 停 用 词 .英文 大 小 写 转换 等 
预 处 理工 作 。 图 5 为 预 处 理 示例 。 欲 抽取 的 知识 点 使 
用 粗 体 表示 。 本 文 使 用 Python 的 jieba 扩展 包 进 行 分 
任职 要 求 : 1、1 年 以 上 Java 开发 经 验 ; 
对 软件 工程 和 相关 标准 有 良好 的 认识 ; 具 
有 较 强 的 面向 对 象 思维 ;精通 设计 模式 ; 
2、 熟 悉 Spring、MyBatis 等 主流 J2EE 技 
术 ; 熟练 使 用 Oracle 数据 库 ， 并 有 一 定 
的 SQL 优化 经 验 ， 3、 熟 悉 Javascript、 

JQuery、BootS trap、CSS 等 技术 ; 熟悉 
Linux 操作 系统 ;熟悉 Tomcat 应 用 服 
务 器 :! 4、 有 Spark、Hadoop 开发 经 验 
者 优先 ; 5、 能 够 承受 压力 、 基 础 扎实 、 

思路 清晰 ,， 有 独立 解决 问题 的 能 力 、 良 好 
的 沟通 表达 能 力 , 有 责任 心 , 具有 良好 的 
团队 合作 意识 。 


图 5 


O04v1 


LO 〇 为 了 抽取 预 处 理 后 文本 中 的 知识 点 ,传统 的 方法 
通 老 使 用 词 频 方法 ,抽取 语 料 集中 出 现 频繁 的 词 作为 
知 设 点 。 然 而 ,基于 词 频 的 方法 抽取 准确 率 低 , 常 包含 
“ 稻 “经验 "等 非 知识 点 词语 。 知 识 点 具有 专业 相 
庆 图 ,在 果 些 专业 中 频繁 出 现 ,而 在 其 他 专业 中 很 少 出 
现 DD 因 此 ,本 文 引入 包含 其 他 专业 集合 的 辅助 集 ,提出 
共 N 辅助 集 重要 性 ( auxiliary set based importance ,ASIT ) 
衡量 词语 在 专业 的 重要 性 ,以 抽取 知识 点 。 其 基本 原 
理 惩 :一 个 词语 在 目标 集中 出 现 频次 越 高 ,在 辅助 集中 
出 器 频次 越 低 , 则 越 可 能 是 目标 专业 的 知识 点 。 

“三 具体 地 , 设 待 分 析 的 目标 集 ( target set,TS) ,包含 
其 全 专业 招聘 信息 的 辅助 集 (auxilary set, AS) ,衡量 一 
个 词语 w 在 目标 集 TS 中 的 专业 重要 性 ASI(w, ,TS ) 定 
义 如 下 : 


df(w,,TS) +1 
1S1 
df(w,;,AS) +1 
14S1 
其 中 ,df(w;, 7S) 表 示 在 7S 集合 中 ,包含 w 的 文 
本 数 ;df(w;, 45) 表 示 在 45 集合 中 ,包含 w 的 文本 数 ; 
17S1 表 示 7S 集合 中 文本 数 ;14S1 表 示 45 集合 中 文本 
数 。 由 于 技能 通常 为 名 词 , 因 此 本 文选 出 “任职 要 求 ” 
中 的 名 词 作 为 候选 词 ,度量 候选 词 的 专业 重要 性 , 按 专 
业 重 要 性 大 小 排序 ,以 抽取 知识 点 。 
3.4 课程 生成 
本 文 使 用 Latent Dirichlet Allocation (LDA ) 模 型 生 
成 隐 含 的 课程 。LDA 主题 模型 ”是 自然 语言 处 理 中 


ASI(w,TS) = 公式 (1) 


词 和 词性 标注 ,使 用 哈尔滨 工业 大 学 编写 的 停 用 词 表 ， 
过 滤 除 去 停 用 词 。 


任职 要 求 : 1、1 年 以 上 java 开发 经 
验 ; 对 软件 工程 和 相关 标准 有 良好 
的 认识 ; 具有 较 强 的 面向 对 象 ”思维 ; 

精通 设计 模式 ; 2、 熟悉 spring、mybatis 等 
主流 j2ee 技术 ; 熟练 使 用 oracle 数据 库 ， 
并 有 一 定 的 sql 优化 经 验 ;， 3、 熟 悉 
javascript、jquery、bootstrap、css 等 技术 ; 
熟悉 linux 操作 系统 ; 熟悉 tomceat 应 用 服 
务 器 ; 4、 有 spark、 hadoop 开发 经 验 者 
优先 ; 5、 能 够 承受 压力 、 基 础 扎实 、 思 
路 清晰 , 有 独立 解决 问题 的 能 力 、 民 好 
的 沟通 表达 能 力 ， 有 责任 心 ， 具 有 良好 
的 团队 合作 意识 。 


预 处 理 示例 


一 种 常用 的 三 层 贝 叶 斯 概率 模型 。 该 模型 由 词 .主题 
和 文本 三 层 构成 , 见 图 6(a) 。 横 型 假设 每 个 文本 包含 
若干 隐 仿 主题 ,每 个 主题 包含 特定 的 词 。 文 本 和 词 间 
的 关系 通过 隐 含 主题 体现 。 隐 含 主题 被 文本 集中 所 有 
文本 所 共享 ,而 每 个 文本 有 一 个 特定 的 主题 分 布 。 一 
篇 文本 的 构造 过 程 首先 是 以 一 定 的 概率 选择 某 个 主 
题 ,然后 再 在 这 个 主题 下 以 一 定 的 概率 选 出 某 一 个 词 ， 
这 样 就 生成 了 这 个 文本 的 第 一 个 词 。 不 断 重 复 这 个 过 
程 , 就 生成 了 整个 文档 。 

类 似 地 ,满足 一 个 岗位 的 要 求 需 要 学 习 多 门 课程 ， 
每 门 课程 包含 知 干 个 知识 点 , 见 图 6(b)。 因 此 ,本 文 
提出 使 用 LDA 主题 模型 生成 隐 含 的 课程 信息 。 


(a) LDA 主题 模型 


(b 课程 知识 模型 


6 ”主题 模型 在 课程 知识 模型 的 应 用 


LDA 主题 模型 通常 采用 Gibbs 采样 推理 方法 估计 
主题 的 后 验 分 布 ,计算 如 公式 (2)' 所 示 : 


= 
i Wi .FE + 有 
Pa = 大 1z Wap8)oc 一 一 
nc t+ eB 
ny ,+a 、 
公 起 (2 
PC + Ka 


其 中 ,z, 表 示 岗 位 dj 中 知识 点 wi 的 课程 变量 ; -六 
表示 排除 岗位 dj 中 的 知识 点 w; ;ns 表示 岗位 dj 中 的 知 
识 点 w; 分 配给 课程 的 次 数 ;(， ) 表 示 对 应 维度 ( 岗 
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位 .课程 .知识 点 ) 所 有 次 数 之 和 ,B 表示 知识 点 的 
Dirichlet 先 验 分 布 ,a 表示 课程 的 Dirichlet 先 验 分 布 ,K 
表示 课程 数 ,V 表示 集合 中 总 的 知识 点 数 。 一 旦 获得 
每 个 岗位 中 每 个 知识 点 的 课程 ,就 可 以 得 到 LDA 模型 
中 0 和 ye 的 后 验 估计 值 , 计 算 如 公式 (3) 和 公式 
(4) “所 示 : 


0 = 公式 (3) 
后 公式 (4) 
其 中 ,0 表示 岗位 d 包含 课程 a 的 概率 ;pu 表示 
课程 x 中 包含 知识 点 w 的 概率 。 
3.5 ”岗位 -课程 关系 生成 
__ 使 用 关联 性 表示 岗位 d; 与 课程 x 的 关系 强度 ， 


表明 岗位 d 包含 课程 ,的 平均 概率 与 所 有 岗位 包含 


谨 移 = 的 平均 概率 比值 ,其 定义 如 下 : 
> eni0 
(dn) = 公式 (5) 
17S1 


中 ,了 = 1d ld e 7S| ,表示 集合 TS 中 所 有 包含 岗 


位 六 的 网 络 招聘 文本 数量 。 由 公式 (5) 可 知 ,r 值 越 大 , 表 


3.&" 课程 -知识 点 关系 生成 

.一 课程 - 知识 点 关系 表明 特定 课程 所 包含 的 主要 知 
识 点 。 由 于 LDA 主题 模型 可 以 得 到 gi 表示 课程 zi 中 
知 有 组 点 w 的 概率 ,因此 为 每 门 课程 选择 前 若干 个 知识 
点 G6 生成 课程 - 知识 点 关系 ,使 用 ws 表示 课程 zx 中 知 
识 起 ww 的 关系 强度 。 


4.1 数据 抓 取 
为 了 验证 本 文 提出 方法 的 可 行 性 与 有 效 性 ,实验 
选择 国内 主流 招聘 网 站 前 程 无 优 ( www. 51job. com) 中 


的 计算 机 专业 本 科 相 关 专 业 进行 分 析 。 前 程 无 忧 是 一 
家 网 络 招聘 服务 提供 商 ,是 中 国 最 具 影 响 力 的 人 才 招 
聘 网 站 之 一 。 按 照 职能 ,在 前 程 无 忧 网 站 选取 “计算 
机 /互联 网 /通信 /电子 ”职能 抓 取 数 据 ,数据 抓 取 日 期 
为 2018 年 3 月 19 日 至 26 日 )。 为 了 得 到 辅助 集 ,在 
前 程 无 忧 招聘 网 站 依次 选取 “销售 /客服 /技术 支持 ” 
“会 计 / 金 融 / 银 行 /保险 “生产 /营运 /采购 /物流 ”“ 生 
物 /制药 /医疗 /护理 “广告 /市 场 / 媒 体 / 艺 术 ”“ 建筑 / 
房地产 ” 人事 /行政 /高 级 管理 “服务 业 ” 职 能 抓 取 数 
据 ,数据 抓 取 日 期 为 2018 年 3 月 19 日 至 26 日 。 抓 取 
后 的 网 页 文本 去 除 本 科 以 下 学 历 内容 重复、 全 英文 、 
没有 写 明 任职 要 求 的 招聘 文本 ,最 后 得 到 的 数据 基本 
信息 如 表 1 所 示 : 

表 1 数据 集 基 本 信息 


数据 集 类 型 。 ”专业 。 ”网络 招聘 文本 数 (篇 ) 
目标 集 计算 机 /互联 网 /通信 /电子 14 678 
辅助 集 销售 /客服 /技术 支持 2 361 
会 计 / 金 融 /银行 /保险 2 417 
生产 /营运 /采购 /物流 2 303 
生物 /制药 /医疗 /护理 2 257 
广告 /市 场 /媒体 /艺术 2 578 
建筑 /房地产 2 343 
人 事 /行政 /高 级 管理 2 269 
服务 业 2 373 
总 计 18 901 


4.2 岗位 抽取 

通过 招聘 网 页 岗位 名 称 中 词语 频次 统计 ,去 除开 
发 “研发 “工程 师 " 等 不 能 表示 明确 岗位 的 词 后 , 排 
在 前 10 的 高 词 频 词 形成 的 岗位 ,以 及 本 文 给 出 的 标准 
化 岗位 名 称 ,结果 如 表 2 所 示 。 由 表 2 可 见 , 计 算 机 学 
科技 术 更 蔡 非 常 快 。 虽 然 存 在 一 些 持 续 热 门 的 岗位 ， 
如 Java 工程 师 .C ++ 开 发 工程 师 、 net 工程 师 等 ,但 是 
也 有 一 些 新 的 岗位 需求 量 快速 增长 ,如 前 端 开发 工程 
师 、 大 数据 工程 师 .算法 工程 师 等 。 


表 2 计算 机 相关 专业 前 10 岗位 


序号 高 频 词 包含 关键 词 的 岗位 标准 化 岗位 名 称 
1 Java Java 软件 工程 师 Java 工程 师 Java 开发 工程 师 Java 工程 师 
2 数据 大 数据 工程 师 、 大 数据 研发 工程 师 .大 数据 研发 人 员 大 数据 工程 师 
3 C++ C ++ 开发 工程 师 .C ++ 软件 工程 师 .C ++ 软件 开发 工程 师 C++ 开 发 工程 师 
4 .net .net 开发 工程 师 、 net 工程 师 、 net 软件 开发 工程 师 .net 工程 师 
4 前 端 开发 Web 前 端 开发 工程 师 前端 开发 工程 师 前 端 开发 工程 师 
5 测试 测试 工程 师 ,软件 测 试 工程 师 测试 工程 师 
6 运 维 运 维 工程 师 、 系 统 运 维 工 程 师 运 维 工 程 师 
8 和 典 人 式 软件 长 人 式 软件 工程 师 . 肉 入 式 软件 开发 工程 师 艇 入 式 软件 工程 师 
9 10S IOS 开发 工程 师 IOS 移动 研发 工程 师 IOS 开发 工程 师 
10 算法 算法 工程 师 、 人 工 智能 算法 工程 师 、AI 算法 工程 师 .图像 处 理 算 法 工程 师 、 自 然 语言 处 理 算法 工程 师 算法 工程 师 
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4.3 知识 点 抽取 

知识 点 抽取 选取 ASI 值 排序 生成 ,采用 人 工 方式 
进行 判断 。 为 了 避免 主观 性 和 专业 知识 的 局 限 性 , 利 
用 百度 百科 维基 、 互 动 百科 等 知识 网 站 查找 是 否 存 在 
对 应 的 知识 点 词 条 ,以 判别 被 抽取 知识 点 的 正确 性 。 
表 3 给 出 使 用 词 频 TF 方法 与 本 文 提出 方法 抽取 的 前 
10 个 词 及 对 应 值 ,其 中 粗 体 词 语 表 示 非 知识 点 词 。 由 
表 3 可 见 ,TF 前 10 个 词语 中 , 非 知识 点 词 因 在 目标 集 
中 出 现 频次 高 ,不 能 很 好 地 抽取 目标 集中 的 知识 点 。 
而 使 用 ASI 方法 识别 的 前 10 个 词语 均 为 技能 ,明显 优 
于 下 方法 ,因为 经验“ 能 力 " 等 目标 集中 的 高 频 词 
在 辅助 集中 也 高 频 出 现 ,使 得 这 些 词 的 ASI 值 变 小 。 

表 3 不 同方 法 识别 的 前 10 个 词 比较 


TF TF 值 ASI ASI 值 
经 验 32 622 Java 3 950.752 
能 力 27 070 C++ 2 442.615 
技术 23 681 MySQL 2 194.096 

22 823 SQL 2 054. 952 
22 742 JavaScript 1 502. 328 
22 738 Python 1 178.912 
22 497 JQuery 1 063. 164 
22 007 C# 951. 500 
软件 21 231 面向 对 象 910. 648 
21 068 Ajax 781. 282 


由 计算 机 


置 六 法 ”1 ,主题 模型 设置 a =50/K.B = 0. 01 , Gibbs 


采样 迭代 次 数 参数 为 2 000 ,保存 迭代 参数 为 1 000。 
课程 数 K 的 选取 通过 计算 困惑 度 与 专家 评估 选取 最 优 
值 , 采 用 五 折 交 义 验 证 。 根 据 计算 ,实验 设 定 课程 数 K 
=11。 表 4 列 出 各 个 课程 前 5 个 知识 点 以 及 归纳 的 对 
应 课程 名 。 


表 4 课程 名 生成 

序号 知识 点 课程 名 
1 Web HTML JavaScript CSS HTMLS Web 开发 
Java J2EE Spring 框架 Hibernate Java 
3 C#. net Winform 面向 对 象 软件 架构 C# 
4 编程 C++ C Linux Unix C 寺 二 
5 数据 库 Oracle SQL MySQL 存储 过 程 数据 库 
6 数据 分 析 MapReduce 存储 建 模 数据 挖掘 数据 分 析 
7 Linux 底层 进程 Shell 通信 Linux 
8 协议 TCP IP HTTP 通信 网 络 通信 
9 软件 测试 Bug 测试 用 例 单元 测试 白 盒 软件 测试 
10 软件 工程 设计 模式 架构 设计 重 构 敏捷 软件 工程 
11 算法 Python C++ 视觉 AI 人 工 智能 


在 这 11 门 课程 中 ,一 些 课程 是 许多 高 校 开 设 多 年 
的 计算 机 专业 课程 。 如 “Java”“C ++”“C#”“ 数 据 
库 “Linux”“ 网 络 通信 ”软件 测试 与 “软件 工程 "等 。 
也 有 一 些 课程 是 随 着 大 数据 而 新 出 现 的 课程 ,如 “Web 
开发 “数据 分 析 ” 等 。 
4.5 岗位 -课程 关系 生成 

根据 岗位 和 课程 关联 度 计算 ,得 到 岗位 -课程 之 
间 的 关系 强度 , 表 5 列 出 岗位 与 课程 的 关系 。 


表 5 岗位 -课程 关系 


岗位 
Java 大 数据 C++ 开发 工程 师 前 端 开发 测试 运 维 诗人 入 式 软件 ”IOS 开发 算法 
工程 师 程 师 程 师 工程 师 工程 师 工程 师 程 师 程 师 工程 师 
WEB 开发 娘娘 太太 太 女 大 太 
Java 女 女 女 
C/C++ 交 太 大 太 太 妇 大 交 克 六 太太 
C# 六 女 太 
数据 库 娘娘 太太 太太 娘娘 太太 交友 碌碌 太 太 
数据 分 析 太太 妆 as 
Linux 太太 友 太 太太 友 太太 六 交友 太 
网 络 通 信 妇女 太 娘娘 妇女 
软件 工程 太太 太太 
软件 测试 妈妈 丰 
人 工 智能 女 妇女 友 
注 : 女 表示 岗位 - 课程 关联 度 zr [0.9,1), 疤 友 表 示 岗 位 -课程 关联 度 r [1, 1.5) , 女 广 女 表示 岗位 - 课程 关联 度 r [1.5,3) 
通过 表 5 的 结果 ,可 以 看 出 各 岗位 所 需 学 习 的 主 。 产品 的 程序 设计 开发 等 工作 ,主要 从 事 负 责 运营 平台 
要 课程 :“Java 工程 师 " 运 用 Java 开发 语言 去 完成 软件 核心 后 台 业 务 及 时 对 外 服务 接口 的 设计 与 开发 。 通 党 
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需要 学 习 Java、J2EE 框架 、 数 据 库 前端 开发 .软件 工 
程 等 课程 。 

“大 数据 工程 师 ” 使 用 现代 数据 仓库 技术 . 线 上 分 
析 处 理 技术 .数据 挖 气 和 数据 展现 技术 进行 数据 分 析 
以 实现 商业 价值 。 因 此 ,除了 需要 掌握 传统 的 数据 库 
技术 之 外 ,大 数据 工程 师 需要 熟悉 分 布 式 数据 存储 、 分 
布 式 计算 和 数据 挖掘 的 原理 。 

“C ++ 开发 工程 师 ” 主 要 从 事 Windows 或 Linux 平 
台 下 C++ 软 件 编程 ,主要 需要 掌握 C++ 、Linux 操作 
系统 、 网 络 通信 和 数据 库 等 课程 。 

“net 开发 工程 师 ” 利 用 微软 的 . net 开发 Web 程 
序 、Windows 应 用 程序 和 Wap 无 线 网 络 应 用 程序 等 。. 
net 开发 工程 师 主要 需要 学 习 C#. 数 据 库 . 前 端 开发 、 
软件 工程 等 课程 。 
他 “Web 前 端 开发 工程 师 "是 一 个 很 新 的 职业 ,主要 
进 筝 网 站 开发 .优化 .完善 的 工作 。 一 位 合格 的 Web 
府 喘 开发 工程 师 首先 需要 掌握 前 端 开 发 的 各 门 课程 ， 
此 ,还 需要 熟悉 传统 的 数据 库 知 识 .面向 对 象 等 软件 
也 可 知识 。 
人 @ 〇 -测试 工程 师 " :我 国 的 软件 测试 职业 还 处 于 一 个 
钢 如 的 阶段 ,很 多 中 大 型 软件 企业 设立 了 单独 的 测试 
部 与 开发 部 并 行 运作 。 作 为 一 名 测试 工程 师 , 需 要 党 
握 谭 要 的 测试 原理 和 工具 ,还 需要 熟悉 主流 的 操作 系 
统 和 数据 库 。 
><“ 运 维 工 程 师 ” 主要 负责 维护 并 确保 整个 服务 的 
高 嘲 用 性 ,同时 不 断 优化 系统 架构 提升 部 团 效 率 . 优 化 
资源 利用 率 。 运 维 工程 师 面 对 的 最 大 挑战 是 大 规模 集 
群 念 理 问题 ,因此 运 维 工程 师 主要 需要 掌握 操作 系统 、 
网 络 通信 以 及 数据 库 。 

“嵌入 式 软件 工程 师 * 是 编写 嵌入 式 系统 的 工程 
师 。 嵌 入 式 系统 是 以 应 用 为 中 心 ,以 计算 机 技术 为 基 
础 ,并 且 软 硬件 可 裁剪 ,适用 于 应 用 系统 对 功能 .可靠 
性 \ 成 本 、 体 积 、 功 耗 有 严格 要 求 的 专用 计算 机 系统 。 
嵌入 式 软件 工程 师 主 要 需要 掌握 C ++ 、Linux .网 络 通 
讯 等 技能 。 

“IOS 开发 工程 师 "主要 以 IOS 系统 为 基础 的 手机 
等 便携 终端 为 基础 ,进行 相应 的 开发 工作 。 该 岗位 主 
要 需要 掌握 C++ .Linux .网 络 通信 .前 端 开发 等 课程 。 
“算法 工程 师 "主要 研究 包括 机 器 人 .语言 识别 .图 像 
识别 .自然 语言 处 理 和 专家 系统 等 ,从 大 量 的 数据 中 通 
过 算法 搜索 隐藏 于 其 中 的 知识 。 该 岗位 主要 需要 掌握 
人 工 智能 原理 与 算法 、 数 据 分 析 、 操 作 系统 以 及 C++ 
等 课程 。 
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4.6 课程 -知识 点 关系 生成 

使 用 LDA 主题 模型 ,得 到 11 门 课程 与 知识 点 之 
间 的 概率 关系 ,选取 每 门 课程 的 前 15 个 知识 点 词语 ， 
构成 课程 - 知识 点 关系 ,形成 词 云 ,如 图 7 所 示 : 


bootstrep ,Toncat ee 
rs Shiing. vot: 二 Cd 
3 Web 检 条 框架 JaVa 中， Net s 编程 
a y MT :J2EE Winform Ol ] NUx 
CO = Un1 
(a) 课程 “Web 开发 ” (b) 课 程 “Java” (ce) 课 程 “C# (d) 课程 “C++” 
QE， sw 站 储 “ 二 通信 ws GPwe 
报表 潮 攻 查 从 村 ,1NUX | MY 
二 数据 库 M: 底层 I 协议 
rac 1e 奸 进程 名 I el 
(e) 课程 “数据 库 人 课程 “数据 分 析 ” 外 课程 “Linux” ( 课程“ 网络 通 信 ” 
单元 测试 ee 音 
和 区 和 淋 构 i 计 本 
软件 测试 :六 二 二 算法 
测 请 用例。 “于 构 5 “Python 


人 0 课 程 “ 软 件 测试 ” 0 人) 课程 “软件 工程 ” ( 课程 “人 工 智能 ” 


7 课程 知识 点 词 云 


由 图 7 可 见 ,目前 高 校 普遍 开设 的 计算 机 专业 课 
程 需要 关注 市 场 的 新 需求 ,添加 新 的 知识 点 。 如 :课程 
“Web 开发 "早期 网 站 内 容 开 发 主要 是 静态 的 .以 图 片 
和 文字 为 主 。 随 着 互联 网 技术 的 发 展 和 HTMLS .CSS3 
等 技术 和 框架 的 引入 ,现代 网 页 更 加 美观 ,功能 更 加 强 
大 ,所 以 课程 需要 强化 这 些 新 技术 的 学 习 。 课 程 “Ja- 
va” 是 一 门面 向 对 象 编程 语言 , J2EE 是 一 个 为 大 企业 
主机 级 的 计算 类 型 而 设计 的 Java 平台, 简化 了 应 用 程 
序 的 开发 ,也 降低 了 对 编程 的 要 求 , 因 此 课程 需要 加 强 
J2EE 以 及 相关 框架 的 学 习 , 以 满足 企业 的 需要 。 由 于 
企业 进行 系统 开发 的 敏捷 性 与 代码 的 可 维护 性 ,需要 
涉及 一 些 架构 ,所 以 课程 *C#" 需 要 加 强 软件 架 构 和 设 
计 模 式 的 学 习 。 课 程 “C ++” 除 了 学 习 语 言 本 身 的 语 
法 知识 之 外 ,也 需要 注重 其 在 Linux Unix 系统 上 的 应 
用 与 开发 。 课 程 “ 数 据 库 ”是 管理 信息 系统 .办公 自 动 
化 系统 ,决策 支持 系统 等 各 类 信息 系统 的 核心 部 分 ,是 
进行 科学 研究 和 决策 管理 的 重要 技术 手段 。 近 年 来 ， 
随 着 数据 量 的 高 速 增长 ,分 布 式 数据 库 技术 快速 发 展 。 
传统 的 关系 型 数据 库 开 始 从 集中 式 模型 向 分 布 式 架 构 
发 展 ,以 NoSQL、MongDB 为 代表 的 非 关 系 型 数据 库 ， 
其 高 可 扩展 性 、 高 并 发 性 等 优势 而 快速 发 展 。 在 教师 
授课 过 程 中 ,需要 密切 关注 这 些 非 关 系 型 数据 库 的 发 
展 趋势 与 介绍 。 课 程 “ 人 工 智能 "是 计算 机 科学 的 一 
个 分 支 , 它 企图 了 解 智能 的 实质 ,并 生产 出 一 种 新 的 、 


ChinaXiv 合 作 期 刊 


俞 瑞 ， 陈 舌 , 赵 乃 斑 . 基于 网 络 招聘 文本 挖掘 的 课程 知识 模型 自动 构建 研究 [J]. 图 书 情报 工作 ,2019 ,63(10):134 - 142. 


能 以 人 类 智能 相似 的 方式 做 出 反应 的 智能 机 器 , 目前 
的 教学 与 学 习 需 要 关注 最 近 企 业 的 热点 应 用 ,如 :机 器 
人 语言 识别 .图 像 识 别 .自然 语言 处 理 和 专家 系统 等 
知识 点 。 

随 着 大 数据 互联 网 的 飞速 发 展 ,也 出 现 了 一 些 新 
兴 课 程 ,课程 知识 模型 也 为 这 些 新 出 现 的 课程 教学 大 
岗 和 知识 点 的 设置 提供 了 情报 决策 的 依据 。 如 :课程 
“数据 分 析 ” 将 组 织 透 过 咨询 系统 之 联机 事务 处 理 经 
FE 累 月 所 积累 的 大 量 资 料 , 透 过 数据 仓库 理论 所 特有 
的 资料 存储 架构 ,通过 Spark、Hadoop 大 数据 集群 计算 
环境 , 作 系 统 地 分 析 整 理 。 利 用 各 种 分 析 方 法 ,如 数据 
挖掘 ,进而 支持 决策 支持 系统 的 创建 ,帮助 决策 者 快速 
有 效 地 从 大 量 资料 中 分 析出 有 价值 的 咨询 。 以 利 决 策 
氢 污 及 快速 回应 外 在 环境 变动 ,帮助 构建 商业 智能 。 
炎 分 析 、 Spark Hadoop 、MapReduce 等 均 是 本 课程 设 


置 需要 考虑 的 知识 点 。 
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全 


尘 
六 -目前 研究 主要 对 网 络 招聘 文本 中 的 岗位 所 需 技能 
知 及 点 进行 手工 分 析 , 没 有 进一步 利用 网 络 招聘 文本 
偿 四 。 针对 目前 网 络 招聘 信息 分 析 存在 的 问题 ,本 文 
提 旨 包含 “岗位 -课程 - 知识 点 ”的 三 级 课程 知识 模 
玲 浊 通过 自然 语言 处 理 ,文本 挖掘 技术 实现 了 课程 知 
识 蛋 模型 的 自动 构建 ,最 后 对 计算 机 相关 专业 的 网 络 
交 和 直行 实证 分 析 。 实 证 结果 表明 了 本 模型 以 及 构建 
过 震 的 可 行 性 与 有 效 性 。 通 过 分 析 , 可 以 发 现 企业 这 
些 冉 位 对 人 才 专 业 技能 的 主要 需求 ,为 高 等 院 校 专业 
设 轴 .教师 教学 大 纲 知识 点 设置 .学 生 职 业 规 划 和 知识 
点 补充 起 到 指导 性 作用 ,从 而 缓解 找 工作 难 、 招 聘 难 的 
双重 矛盾 。 

由 于 岗位 名 称 的 多 样 性 ,如 :“Java 开发 工程 师 ” 
“Java 软件 工程 师 ” 均 表示 相同 的 含义 ,目前 的 研究 方 
法 主要 采用 主要 关键 词 “Java” 标准 化 为 相同 岗位 名 
称 ,后 续 的 研究 中 将 进一步 优化 岗位 名 称 标准 化 的 方 
法 ,以 自动 .准确 地 表示 岗位 信息 。 
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Abstract: [Purpose/significance | In order to help college teachers and students make full use of web recruitment 


information, this paper proposes a curriculum knowledge model and its automatic construction method based on large data 


webFrecruitment text mining. [Method/process | This paper proposes a three-level curriculum knowledge model including 


罗 Pbost -curriculum -knowledge point” , which uses natural language text mining technology to realize the automatic construc- 


tign3 and verifies the construction process through experiments. [ Result/conclusion | The experimental results show that 


tHesBroposed model and method are highly feasible and effective, and provide teaching and learning reference for colleges 


and students. 


Keywords: Web recruitment text curriculum knowledge model text mining 


会 


“图 书 情报 与 档案 管理 专业 教育 模式 创新 与 能 力 建设 ”专题 征稿 


” 伐 , 推 动 


三 ”信息 环境 的 变化 和 信息 技术 的 快速 发 展 ,对 社会 各 行业 各 领域 具 
-能力 提出 新 的 挑战 与 要 求 。 图 书 情报 与 档案 管理 专业 教育 如 何 适应 新 


图 情 档 专业 教育 模式 的 创新 ,提升 培养 图 情 档 专业 毕业 生 的 专 


重要 的 影响 ,也 对 专业 学 科教 育 的 模式 与 
时 代 的 发 展 ,加 快 图 情 档 专业 教育 变革 的 步 
业 能 力 以 及 非 专业 人 员 的 图 情 能 力 , 需 要 图 


情 档 专 


教师 加 强 思 考 与 总 结 。 


为 纪念 中 国 图 书 情 报 与 档案 管理 学 科教 育 新 的 发 展 ,纪念 中 国 科 学 院 文献 情报 中 心 研 究 生 教育 创立 40 周年 ， 


讨 


中 国 科学 院 文献 情报 中 心 研究 生 教育 处 和 中 国 科学 院 大 学 图 书 情报 


与 档案 管理 系 的 支持 下 ,《 图 书 情报 工作 》 将 


在 2019 年 9 月 上 旬 ( 第 18 期 ) 推 出 “图 书 情报 与 档案 管理 专业 教育 模式 创新 与 能 力 建设 "专题 (专辑 或 专栏 ) 。 


来 稿 主题 不 限 国内 还 是 国外 图 情 专 业 教 育 ,不 限 图 情 学 位 教育 层次 ,不 限 图 情 教育 教学 理论 .方法 与 经 验 , 不 


意向 选 题 截止 时 间 :4 月 15 日 ,全 文 完成 时 间 :6 月 1 日 。 投 稿 请 注 


FE 明 “ 图 情 教育 专题 征稿 ”。 


投稿 网 址 :www. lis. ac. cn 
联系 邮箱 :journal@ mail. las. ac. cn 
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: 限 专业 课 、 公 选课 。 但 务必 原创 ,有 创新 性 ,有 自己 的 研究 或 实践 作为 支撑 。 
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